12 juli 2024 11:04

Microsoft leert computer spreken: zo goed dat het gevaarlijk wordt

Microsoft is erin geslaagd om natuurlijk klinkende taal uit een computer te krijgen, maar houdt de technologie wel achter gesloten deuren.

Grote technologiebedrijven zijn verwikkeld in een heuze AI-wedloop. Dé zaak van het moment gaat over wie het snelst de knapste AI-toepassingen kan ontwikkelen. Als het over tekst-naar-spraakmodellen gaat, die geschreven tekst kunnen omzetten in gesproken taal, heeft Microsoft al een primeur binnen. Alleen: daar zal je zelf niet mee aan de slag kunnen, wegens de gevaren ervan.

Het AI-systeem werd nog niet in het wild gespot, maar werd al wel beschreven in de onderzoekspaper die de ontwikkeling detailleert. De paper beschrijft hoe het VALL-E 2-model er ongeveer uitziet en wat de werking ervan is. De onderzoekers zijn er relatief helder over: dit is het eerste tekst-naar-spraakmodel dat op hetzelfde niveau als de mens presteert. Of dat ook echt zo is? Dat kan je helaas niet controleren: VALL-E 2 is namelijk niet beschikbaar voor het publiek.

Wat Microsoft wel laat zien (of liever: horen), dat zijn enkele vooraf gemaakte opnames, afkomstig van het nieuwe model. Voor de handigheid staat er meteen een speaker prompt bij: een uitspraak die door een persoon gemaakt werd, en waarvan het systeem de stem zal proberen nabootsen. Microsoft laat prompts van 3, 5 en 10 seconden horen. Hoe langer zo’n prompt duurt, met hoe meer informatie VALL-E 2 aan de slag kan om een stem na te bootsen. Dat lukt echt goed: het systeem is zelfs in staat om speciale klanken of een manier van spreken over te nemen.

Gevaarlijke technologie

De klank die uit VALL-E 2 komt klinkt bijzonder natuurlijk. De resultaten van het eerste VALL-E-model waren al veelbelovend, maar wat Microsoft hier neerzet is nog wat knapper. Bij de eerste VALL-E kon je bij sommige klanken nog horen dat het om een computer ging, maar dat is met de nieuwe versie zo goed als weggewerkt. Dat maakt de technologie knap, maar ook gevaarlijk: indien VALL-E 2 ingezet wordt bij het maken van deepfakes, wordt het haast onmogelijk om echt van namaak te onderscheiden.

Met andere woorden: je kan eigenlijk niet horen dat dit geen echte persoon is, maar een computersysteem. Wellicht vindt Microsoft de tool daardoor te gevaarlijk om los te laten op het publiek. De blogpost die het online zet, is dan ook “enkel voor onderzoeksdoeleinden” bedoeld. Dat lijkt ook het geval voor het AI-model te zijn: “We hebben momenteel geen plannen om VALL-E 2 in een product te integreren of om toegang uit te breiden naar het publiek”, zegt de Windows-fabrikant erover.

Uitgelicht artikel

Deepfake van Elon Musk promootte scam op YouTube

Schrijf je in op onze nieuwsbrief en ontvang elke werkdag het beste uit de techwereld in je mailbox.

ai microsoft tekst-naar-spraak VALL-E 2

Arthur De Graef

Arthur is gepassioneerd door muziek, films en games en linuxgebruiker in zijn vrije tijd. Volgens hem zit achter alles, ook de nieuwste technologie, een verhaal dat hij met plezier uitpluist.